查看原文
其他

Nature Communications | 基于进化统计信息的蛋白质功能预测

许乙 北京生物结构前沿研究中心
2024-08-30

星标,再也不怕错过更新!方法见文末动图。

蛋白质通过与其他分子进行结合从而来发挥重要的生物学功能。了解蛋白质功能对于理解许多关键生物活动的复杂机制至关重要,对医学、生物技术和药物开发领域具有深远影响。然而,在UniProt数据库中收纳的超过3亿个蛋白质中,有超过 2 亿种蛋白质仍未得到功能性表征,并且在已有的功能性注释中,大部分注释仍在蛋白质的整体水平,并没有精确到氨基酸的层次。目前的蛋白质功能预测计算工作主要有两种类型,一是基于序列比对的方法,二是基于序列和结构等信息的深度学习方法,前者会受到序列大小和其在进化空间中的保守程度的影响,后者严重依赖蛋白质结构信息来得到不同质量的预测注释,而对于深度学习模型的训练而言,实验确定的高质量的蛋白质结构信息仍然是稀缺的。


为了实现高精度的蛋白质功能预测,来自牛津大学的Benoit Kornmann课题组联合来自苏黎世联邦理工大学、上海理工大学和北京师范大学的研究人员在Nature Communications上发表了名为PhiGnet的蛋白质功能预测工具。该方法充分利用了蛋白质进化信息,使用图卷积神经网络在两个进化层次上对蛋白质的序列信息进行了充分的学习,在CAFA3等benchmark上表现出了超过目前SOTA工具的性能。值得注意的是,PhiGnet还能够针对某种预测出来的蛋白质功能对蛋白质的残基进行功能贡献打分,为氨基酸水平的功能注释提供了可行方案。



研究人员充分利用了共进化残基的信息。共进化的氨基酸在蛋白质进化过程中表现出协同变化,它们在蛋白质结构或功能中可能存在相互依赖的关系。它们常位于结构域的关键位置,如活性位点、配体结合位点或蛋白质-蛋白质相互作用界面。通过分析蛋白质序列中的共进化残基,可以推断出这些残基在具体的生物学功能中的重要作用。


图1 PhiGnet结构、EVC和RC图示及氨基酸功能分析示例


在PhiGnet的训练过程中,研究者首先使用基于HMM的搜库工具hhblits构建了序列的多序列比对MSA,然后对MSA进行了进化耦合分析和谱分析,分别从MSA中提取到了共变性信号和共变性矩阵中主要的相互作用模式,即进化耦合信息(简称EVC,即两个共进化位点之间的氨基酸对耦合信息)和氨基酸群落信息(简称RC,即残基之间的层次相互作用),二者作为图神经网络的边信息(图1b)。然后,使用蛋白质进化大预言模型ESM-1b得到了每条训练样本的嵌入空间表示,作为图神经网络的点信息。EVC和RC的信息分别经过三个堆叠的图卷积神经网络后,通过两层全连接神经网络输出预测的功能标签(表示为GO terms或EC number)。模型的整体架构如图1a所示。


研究者借鉴了在computer vision中常用的Grad-CAM算法来计算蛋白质中每个氨基酸的对于每个预测出来的功能的贡献。通过计算分类标签得分对于最后一个卷积层的特征图的梯度,经过全局池化、线性组合所有特征图、激活、归一化等步骤,得到每个氨基酸的激活分数,反映模型做出某一类别的预测时重点关注的序列区域,即对于某一个功能具有重要影响的氨基酸(图1c)。更多的实例表明,该方法能够捕捉到具有不同大小、不同功能的蛋白质的配体结合、离子相互作用和DNA结合位点,并与BioLiP数据库中的半手动标注的结果有较高的一致性(图2)。


图2 PhiGnet能够进行氨基酸水平的功能注释


研究者将PhiGnet与当下的一些SOTA方法,如基于序列比对的BLAST、FunFams、Pannzer以及基于深度学习的DeepGO、DeepFRI、DeepGOWeb、ProteInfer、SPROF-GO、ATGO+和CLEAN进行了比较。在包含了41,896个蛋白质及GO注释信息和包含了20,215个蛋白质及EC number的benchmark上,PhiGnet具有更高的Fmax和AUPR,超过了所有已有的方法。另外,研究者进行了模型的鲁棒性测试,结果表明PhiGnet是鲁棒性最好的两个方法之一(图3)。


图3 PhiGnet与其他方法在GO注释和EC numbers预测上的比较


总的来说,研究者们开发的PhiGnet方法,一方面从共进化的氨基酸对和氨基酸群落两个层次,另一方面利用蛋白质大语言模型,对进化信息进行了很好的建模,并使用图卷积神经网络对嵌入空间表示进行了处理。但是,对于保守性较高的蛋白,PhiGnet的计算过程中可能会带入一定的噪声。另外,PhiGnet并不能区分分数高的残基具体所属的蛋白质活性位点。总而言之,进化信息将使统计信息学习方法能够有效地表征残基水平的蛋白质功能,包括预测疾病变异、变构调节、结合亲和力和仅来自序列的特异性,以及结合特定应用的结构信息。进化数据和机器学习之间的协同作用将为准确确定和设计蛋白质的生物物理特性铺平道路,其影响涵盖临床决策、工业应用和环境生物技术。



原文链接 

Accurate prediction of protein function using statistics-informed graph networks | Nature Communications


供稿 | 许乙

责编 | 囡囡

设计 / 排版 | 可洲 




微信号:FRCBS-THU

因扫码入群人员已满,可扫码添加中心官方微信号,管理员邀请入群


精彩回顾

精彩回顾



特别提示

微信公众号又双叒叕更改推送机制了,不是星标的订阅号,收到推送内容的时间会有延迟,甚至根本无法收到最新推送!不想错过FRCBS最新资讯,快来设为星标吧!

方法超简单,只需3秒钟!


点击上方卡片

关注我们吧


THE END

我知道你“在看”


继续滑动看下一个
北京生物结构前沿研究中心
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存